Вводные данные

У нас есть данные о 3000 объявлениях по сдаче квартир в Санкт-Петербурге и Ленинградской области.

Перед тем как провести разведывательный анализ данных мы проведем их очистку от технических ошибок и приведем к удобному формату:
1. В данных об этажах имеются лишние символы, мы их удалим
2. Уберем единицы измерения из данных о минимальном сроке аренды
3. Удалим те объявления, в которых общая площадь меньше, чем сумма жилой площади и площади кухни
4. Переведем цену от руб/мес к тыс.руб./мес.
5. Для удобства работы избавимся от транслита и приведем слова, написанные транслитом, к кириллице.
6. Также заменим пропуски в данных на “Нет данных”

После удаления наблюдений с техническими ошибками в нашем датасете осталось 2435 наблюдений.

Далее построим таблицы со статистиками для номинальных и числовых переменных.

Затем при подсчете всех статистик мы исключали пропущенные значения

Частоты номинальных переменных

Номинальные переменные:
1. Дата
2. Регион
3. Район
4. Адрес
5. Метро
6. Сделка с агентом или без
7. Тип здания
8. Наличие лифта
9. Наличие мебели
10. Тип ремонта
11. Балкон.

Количество комнат мы сделали ординальной переменной. Сделать числовой нельзя, потому что есть квартиры студии - в которых количество комнат строго не определено(с одной стороны комната 1, а с другой стороны это студия). При этом это также не номинальная переменная, потому что мы можем сравнить студию, однокомнатную квартиру и тд по количеству комнат(студия<1комнатная<двухкомнатная).

Далее мы построим таблицы частот встречаемости различных наблюдений для каждой номинальной переменной

Регион

Region Количество наблюдений
город Санкт-Петербург 2339
Ленинградская область 96

Большинство квартир из объявлений расположены в Петербурге. Так происходит, потому что в городе живет гораздо больше людей, чем в области.

Район

Как видно, большая часть квартир распологается в городских районах, в то время как в различных районах ЛО расположена лишь небольшая часть квартир. Причина таже - в городе просто больше людей и квартир.

Станция метро

Много квартир расположено рядом со станциями метро Приморская и Комендантский проспект. Это можно объяснить тем, что рядом с этими станциями метро много относительно новых, многоэтажных зданий, следовательно плотность недвижимости там больше.

Также можно заметить, что в этом списке есть несуществующие станции метро: Репино, Павловск и тд. Это все железнодорожные станции. Мы не будем удалять эти наблюдения как ошибочные, а лишь оставим примечания, что содержатся наблюдения, в которых вместо станции метро указана железнодорожная станция.

Тип здания

Большая часть квартир расположена в домах относительно современного типа: кирпичные, кирпично-монолитные, панельные и тд. Также в наблюдениях присутствуют квартиры в домах старого жилового фонда, “сталинках” и тд., но их доля невелика.

Наличие лифта

Lift Количество наблюдений
Есть 1422
Нет 1013

Более чем в половине домов присутствуют лифты, но в ~40% домов они отсутствуют. Это может быть связано с тем, что в выборке прсутствует множество квартир либо из домов малой этажности, либо из старых домов, в которых лифтов нет.

Количество комнат в квартире

Самые популярные квартиры - однокомнатные. Следующие по популярности двухкомнатные. Студии не часто встречаются в объявлениях. Возможно, что наша выборка смещена(то есть в ней просто мало квартир-студий), либо люди, продающие студии, отмечают свои квартиры как 1-комнатные.

Наличие мебели

В большинстве наблюдений нет данных о наличие мебели в квартире. Однако во многих объявлениях указано, что квартира оснащена современной мебелью. Лишь в нескольких десятках объявлениях указано, что мебель старая.

Ванная комната

Bath Количество наблюдений
Нет данных 1367
Отдельная 704
Совмещенная 313
Душ 30
Поперечная 13
Продольная 8

Как и с данными о мебели - в большинстве объявлений не указан тип ванной комнаты. В большой части квартир указана отдельная ванная и примерно в 300 наблюдениях сказано о совмещенном сан.узле и ванной комнате. В незначительном количестве объявлений указано положение ванны - продольная или поперечная.

Ремонт

Refurbished Количество наблюдений
Нет данных 1007
Евро стандарт 685
Произведен 583
Не требуется 151
Требуется 9

Около 1000 наблюдений не имеет данных о ремонте в квартире. Также большая часть сообщает о выполненном ремонте или отсутствии неоходимости его выполнения. Лишь в 9 наблюдениях сказано о необходимости ремонта. Это может быть связано с тем, что люди не хотят отпугнуть арендатора необходимостью ремонта.

Балкон

Как и в предыдущих случаях, большинство наблюдений не содержат данных о наличие балкона. При этом следующими по частоте встречаемости являются вартиры с балконами и лоджиями. Лишь несколько десятков объявлений сообщают о наличии нескольких балконов/лоджий. Еще меньше квартир с террасами/эркерами, т.к. они нетипичны для большинства домов в Петербурге и ЛО.

Сделка с агентом или без

No_agents Количество наблюдений
С агентом 2127
Без агента 308

Большая часть объявлений сообщают о сдаче через посредника. Это может быть обусловленно тем, что люди либо хотят обезопасить себя, привлекая квалифицированную сторону, либо не хотят тратить свое время и силы на сдачу квартир.

Статистики числовых переменных

Числовые переменные:

Среднее Медиана Мода Квартиль1 Квартиль3 Станд.отклон. Размах Минимум Максимум Куртозис Ассиметрия
Цена 43.50 30.0 20.0 22.0 49.5 43.300 600.000 0.016 600.0 40.50 4.860
Дист. до метро, м 1405.00 770.0 50.0 290.0 1498.0 2670.000 44100.000 0.000 44100.0 69.50 6.820
Мин. срок аренды 10.50 11.0 11.0 11.0 11.0 3.420 30.000 1.000 31.0 19.90 1.750
Общ. площ. 71.20 50.0 40.0 40.0 70.0 466.000 22984.000 16.000 23000.0 2402.00 48.800
Жил. площ. 34.10 29.0 18.0 18.0 40.0 22.600 249.000 2.000 251.0 15.90 2.770
Площ. кухн. 12.10 10.0 10.0 8.0 14.0 7.560 79.000 1.000 80.0 20.60 3.390
Кол-во этажей в доме 6.58 5.0 3.0 3.0 9.0 4.850 25.000 1.000 26.0 4.57 1.360
Номер этажа 11.80 10.0 5.0 6.0 16.0 6.580 29.000 1.000 30.0 2.44 0.721
Широта 59.90 59.9 59.9 59.9 60.0 0.066 0.526 59.600 60.1 2.52 -0.129
Долгота 30.30 30.3 30.3 30.3 30.4 0.079 0.570 30.100 30.7 3.14 0.117
Год постройки дома 2000.00 2010.0 2015.0 2000.0 2015.0 26.600 185.000 1832.000 2017.0 17.50 -3.330

С помощью данной таблицы попытаемся обнаружить ошибочные наблюдения. Если имеется слишком большое стандартное отклонение, большой куртозис и максимальное(минимальное) значение сильно отличается от 3(1) квартиля, то мы будем искать в данных ошибку.

Цена

Начнем с максимальных цен на квартиры. Рассмотрим 4 самых дорогие квартиры.

4 самые дорогие квартиры
District_ad Address Area_total Area_living Price Longitude Latitude
Петроградский Константиновский пр., 23 135 85 450 30.26852 59.97331
Петроградский Крестовский пр. 15 456 251 450 NA NA
Приморский Главная ул. 600 130 560 30.29761 60.02282
Приморский Лисий Нос, Приморское шоссе, 412 268 200 450 30.08760 59.99874
Адмиралтейский Конногвардейский бул., 13 243 130 600 30.29865 59.93394

Аренда квартиры в Петроградском и Адмиралтейском районах вполне могут стоить таких денег, потому что это престижные части города. Однако, квартиры в Приморском районе так дорого обыычно не стоят. Рассмотрев подробнее два этих наблюдения выясняется, что адреса Приморское шоссе 412 в Лисем Носу вообще нет. По координатам квартиры с Главной улицы за 450 тыс.руб в месяц раньше находился гаражный кооператив, который на данный момент снесен. Квартиры с общей площадью 600 кв.м из которых 130 кв.м - жилые, там быть явно не могло. Удалим эти 2 наблюдения как ошибочные.

Рассмотрим минимальные цены на квартиры:
Самые дешевые квартиры
Date_entry District_ad Dist_metro_ad Area_total Area_living Price
2016-12-20 Пушкинский 1230 33 18 0.016
2017-01-15 Гатчинский 1450 44 22 0.020
2017-02-27 Адмиралтейский 590 50 24 0.025
2017-02-28 Калининский 3160 62 39 0.030
2016-04-24 Московский 430 35 15 1.500
2016-06-16 Всеволожский 430 42 20 1.800
2016-05-05 Невский 770 48 32 2.000
2016-05-06 Фрунзенский 1120 47 30 2.500
2016-01-07 Центральный 640 54 32 4.000
2016-03-24 Адмиралтейский 250 75 41 6.000
2016-07-25 Выборгский 10960 36 18 6.000
2017-05-24 Василеостровский 580 90 13 8.000

Есть несколько квартир, стоимость аренды которых в месяц меньше 10 тыс.руб/мес. Даже в 2016 году вряд ли в Петербурге были квартиры с такой площадью за столь малые деньги. Поэтому мы удалим данные наблюдения как ошибочные

Расстояния до ближайшей станции метро (метры)

Самые далекие от метро квартиры
Metro District_ad Address Dist_metro_ad
Ветеранов пр. Петродворцовый р-н Ломоносов г. Красного Флота ул., 23к1 27300
Автово Петродворцовый р-н Ломоносов г., Ораниенбаумский пр., 43к1 27460
Просвещения пр. Всеволожский р-н Лесное пос. 37630
Восстания пл. Кировский р-н Мга пос. Мгинской правды ул. 44100

Проверив расстояние до ближайшей станции метро в яндекс картах, можно убедиться, что эти расстояния не ошибочны.

Теперь рассмотрим самые близкие к метро квартиры.

District_ad Address Dist_metro_ad
Центральный Большая Конюшенная ул. 0
Московский Московский пр., 139к2 0
Выборгский Лесной пр., 15 0
Центральный Кременчугская ул., 13 0

Есть несколько наблюдений, в которых расстояние до метро равно нулю. Такого, конечно же, быть не может, поэтому мы удалим эти наблюдения как ошибочные.
Тут стоит отметить, что все люди пытаются сдать свои квартиры как можно быстрее и как можно дороже, поэтому, чтобы выделить свою квартиру среди остальных, люди идут на некоторые ухищрения. Например, занижают расстояние до ближайшей станции метро. В наших данных также наблюдается такая тенденция, поэтому к использованию данных о расстоянии до метро нужно подходить внимательно.

Минимальный срок аренды квартиры

Максимальное значение минимального срока аренды квартир в 3 раза больше 3 квартиля, то есть распределение сильно скошено вправо. Проверим наблюдения с большим минимальным сроком аренды.

В нашей выборке существуют люди, которые хотят сдать квартиру минимум на 31 месяц и минимум на 14 месяцев, но при этом нет людей, которые хотели бы сдать квартиры, например, на 20 месяцев. Тем не менее, мы не будем удалять наблюдения с минимальным сроком аренды в 31 месяц, потому что возможно, что в нашу выборку не попали наблюдения, срок минимальный срок аренды которых находится между 14 и 31 месяцами.

Наблюдения с маленьким минимальным сроком аренды мы не будем рассматривать как ошибочные, т.к. люди вполне могут хотеть сдать квартиру хоть на какой-то срок(даже 1 месяц).

Общая площадь

Куртозис данных очень большой, а также максимальное значение сильно больше 3 квартиля, скорее всего в данных имеется либо выброс, либо ошибка. Проверим квартиру с самой большой общей площадью.

Address Rooms Price Area_living Area_kitchen Area_total
Гатчинская ул., 8 2 23 22 7 23000

В квартире 2 комнаты и жилая площадь всего 22 кв. метров, но при этом общая площадь 23 000 кв.метров. Такая площадь ошибочна, так что мы удалим данное наблюдение

Address Rooms Price Area_living Area_kitchen Area_total
Троицкий пр., 16 1 35 12.0 4.0 22
Кузнецовская ул., 11 0 22 13.6 5.3 23
Лизы Чайкиной ул., 10 NA 20 12.0 2.0 16

Жилая площадь

Address Rooms Price Area_total Area_kitchen Area_living
Крестовский пр. 15 8 450 456 62 251
Беринга ул., 27к1 5 155 245 1 200
Кирочная ул., 6 7 220 304 31 212
Лисий Нос, Приморское шоссе, 412 6 450 268 15 200
Луначарского пр., 15к1 9 200 500 40 200

Данные квартиры стоят дорого, в них много комнат, следовательно и жилая площадь большая, так что скорее всего эти наблюдения не ошибочны.

Address Rooms Price Area_total Area_kitchen Area_living
Грибоедова кан. наб., 174 1 35 25 8 10
Брянцева ул. 7к.1 1 25 40 10 10
Чудновского ул., 6к2 2 24 52 10 2
Лыжный пер., 4к3 1 30 40 18 10
Парголово, Николая Рубцова ул., 9 1 22 32 11 10

В наблюдениях с минимальной жилой площадью на наш взгляд также нет ошибки. Квартира с 2 кв. метрами жилой площади безусловно является нетипичной для нашей выборке, однако судить наверняка об ошибочности данного наблюдения мы не может

Площадь кухни

Address Rooms Price Area_living Area_total Area_kitchen
Морской пр., 15 2 140 38 140 65
Литейный пр., 57А 3 300 120 200 80
р-н Репино пос. Приморское шоссе, 424 3 350 57 145 65
Чайковского ул. 38 5 280 190 307 80
Литейный пр., 51 3 70 41 123 78

Квартиры стоят дорого, общая площадь в них большая, поэтому мы не будем удалять эти наблюдения как ошибочные.

Статистики числовых переменных после удаления ошибочных наблюдений

Среднее Медиана Мода Квартиль1 Квартиль3 Станд.отклон. Размах Минимум Максимум Куртозис Ассиметрия
Цена 43.00 30.0 20.0 22.0 48.0 40.700 590.000 10.0 600.0 37.40 4.560
Дист. до метро, м 1438.00 790.0 50.0 318.0 1520.0 2714.000 44090.000 10.0 44100.0 67.80 6.750
Мин. срок аренды 10.60 11.0 11.0 11.0 11.0 3.460 30.000 1.0 31.0 20.00 1.880
Общ. площ. 61.50 50.0 40.0 40.0 70.0 36.200 484.000 16.0 500.0 25.20 3.400
Жил. площ. 34.50 30.0 18.0 18.0 40.0 22.600 241.000 10.0 251.0 15.30 2.690
Площ. кухн. 11.60 10.0 10.0 8.0 13.0 6.710 79.000 1.0 80.0 23.20 3.440
Кол-во этажей в доме 6.58 5.0 3.0 3.0 9.0 4.810 25.000 1.0 26.0 4.53 1.340
Номер этажа 11.80 10.0 5.0 6.0 16.0 6.550 28.000 2.0 30.0 2.45 0.725
Широта 59.90 59.9 59.9 59.9 60.0 0.066 0.365 59.7 60.1 2.11 -0.048
Долгота 30.30 30.3 30.3 30.3 30.4 0.078 0.539 30.1 30.6 2.82 0.037
Год постройки дома 2000.00 2010.0 2015.0 2000.0 2015.0 25.600 185.000 1832.0 2017.0 15.90 -3.110

Видно, что все большинство величин скошенны вправо(ассиметрия>0). Это объясняется природой данных: все величины у нас положительны, большинство значений близки к левой границе распределения, но при этом существует несколько наблюдений, сильно выбивающихся из общей тенденции, то есть наблюдений, смещенных к правой части распределения(слишком дорогие/большие квартиры, слишком отдаленные от метро, слишком высокоэтажные дома).
Данные, не следующие этой логике:
1. Широта и долгота. Они не являются сильно скошенными в ту или иную сторону. Это означает то, что в среднем все квартиры симметрично распределены вокруг условного “центра”(то есть среднего) широты(и долготы соответственно).
2. Год постройки - данные скорее ограничены справа, чем слева. Т.к. домов, построенных позже текущего момента не существует, в среднем все дома относительно новые, но при этом существует несколько очень старых домов, поэтому распределение скошено влево.

Графики частот номинальных данных

Регион

Из графика видно, что абсолютное большинство квартир расположено в Санкт-Петербурге. Скорее всего это связано с тем, что плотность жилья в Санкт-Петербурге гораздо выше, чем в регионе. Также в городе гораздо больше людей, желающих сдать квартиру.

Район

Самыми популярными районами для сдачи квартиры являются: Московский, Центральный, Приморский. А наименее популярными: Петродворцовый, Курортный, Колпинский, Ломоновский (вероятно, в виду их удаленности от центра)

Метро

Самыми популярными станциями метро являются: Приморская, Комендантский проспект, Московская, Ленинский проспект. А наименее популярными Шушары, Пушкинская, Павловск, Лаврики, Колпино, Волковская. Такое распределение легко объясняется спецификой распределения квартир по районам: наиболее часто встречающиеся станции - те, что находятся в районах с самым большим количеством квартир - Московском, Центральном, Приморском.

Комнаты

На графике видна явная тенденция: число наблюдений уменьшается с ростом числа комнат. Это кажется вполне разумным: чем больше комнат в квартире, тем она дороже. Следовательно, у меньшего числа людей в собственности есть такая квартира (особенно для сдачи в аренду). Эта тенденция нарушается лишь квартирами студиями. Полагаем, что это возникает из-за того, что не все арендодатели прописывают в объявлении тип однокомнатной квартиры.

Сдача с посредником и без

Большинство квартир сдаются с посредником. Это может быть объяснено желанием арендодателей обезопасить себя, избавиться от лишних хлопот.

Здание

Большая часть зданий, в которых расположены квартиры сделаны либо из кирпича, либо из монолитного кирпича. Полагаем, что это происходит из-за особенностей жилового фонда Санкт-Петербурга.

Лифт

В большинстве домов (примерно 60%), в которых сдаются квартиры, есть лифт. Это может быть связано с тем, что в выборке присутствует множество квартир либо из домов малой этажности, либо из старых домов, в которых лифтов нет

Мебелирование квартиры

В большей части объявлений либо написано о типе установленной мебели, либо нет никаких данных о мебели. На наш взгляд это может быть связано с тем, что люди не хотят отпугнуть потенциальных арендаторов отсутствием мебели в своей квартире.

Ванная

Половина всех объявлений не содержит никаких данных о типе ванной комнаты. Следующий по популярности вариант - “Отдельная”. Предполагаем, что авторы объявлений либо указывают преимущество квартиры в виде раздельной ванной комнаты, либо не указывают вообще ничего, чтобы не отпугнуть потенциальных арендаторов.

Тип ремонта

Полагаем, что ситуация аналогична ситуации с ванной комнатой. Арендодатели либо указывают преимущество в виде евроремонта (или ремонта как такового), либо не указывают ничего (“нет данных”). Мотивация тут такая же, как и с указыванием типа ванной комнаты и наличия мебели - арендодатели не хотят отпугнуть арендаторов.

Балкон

В большинстве объявлений отсутствует информация о балконе. Следующий по популярности идет вариант о его наличии, за ним - о наличии лоджии, при этом очень мало объявлений с эркерами и большим количеством балконов/лоджий. Мы считаем, что это напрямую связано с особенностями жилья в Санкт-Петербурге. Для Петербурского жилья характерно наличие лишь одного балкона/лоджии.

Графики распределения числовых переменных

Расстояние до метро

На данном графике максимальное расстояние до метро ограничено 20 000 метров, это сделано для лучше йвизуализации. Тажке существует несколько наблюдений, которые выходят за данную границу - они расположены в Ленинградской области.
Распределение сильно скошено вправо. При этом в среднем квартиры расположены на ~2км. от метро. Это объясняется тем, что площадь застройки(в том числе жилой) вокруг метро обычно высокая.

Цена

Распределение скошено вправо. Это происходит из-за того, что существует несколько квартир, цена аренды которых крайне высока. Однако цена аренды большинства квартир варируется от 20 до 50 тысяч рублей. Среднее - 43 тысячи рублей, медиана - 30 тысяч рублей.

Минимальная продолжительность договора

Как видно из графика - большинство людей хотят сдать свою квартиру минимум на год. Также есть люди, которые хотят сдать квартиру на 6 или на 1 месяц минимум. Такие красивые даты могут быть объяснены психологическими причинами. Многие люди не хотят сдавать свою квартиру на несколько дней, но при этом боятся спугнуть арендаторов слишком большим сроком и поэтому ставят 1 месяц. Кто-то хочет сдать квартиру на длительный срок, но при этом также боится спугнуть покупателей и ставит 6 месяцев, вместо 12. При этом многие люди все равно сдают свою квартиру минимум на год. Таже существует несколько объявлений, в которых минимальный срок аренды указан равным 31 месяцам. Возможно, люди уезжают куда-то на длительный срок и поэтому хотят сдать свою недвижимость сразу на длительный период.

Площади

На графиках выше видно, что данные распределения скошены вправо. При этом на гистограммах существуют “провалы”, скорее всего это происходит из-за конструктивных особенностей квартир, т.к. застройка в своем большинстве типовая, поэтому некоторые интревалы площадей отсутствуют в выборке.

Этаж квартиры и количество этажей в доме

Распределение количества этажей в доме скошено вправо и имеет множество пиков. Плотность вероятности уменьшается с увеличением количества этажей. Это, в целом, свидетельствует о том, что квартиры сдают в разных домах, с небольшим преобладанием малоэтажных. Множество пиков обусловлено спецификой архитектуры Петербурга, в застройке которого существует много домов определенной высоты (например, четырех-, пяти-, десяти-, пятнадцати- этажных) и мало - другой высоты (например, семи-, двенадцати- этажных).
Распределение этажей, на которых расположена съемная квартира сосредоточено вокруг пятого этажа и, в целом, скошено вправо. Однако у него очень “толстые” хвосты, что свидетельствует о том, что квартиры могут находится и на больших этажах.

Широта и долгота

Координаты долготы распределены почти нормально. Это связано с тем, что большая часть квартир расположена вокруг условного центра(то есть средней долготы). При этом в распределении широты есть некоторые провалы. Скорее всего это происходит из-за особенностей ландшафта Санкт-Петербурга и Ленинградской области. Вероятно, что в “провалах” широты расположены промзоны, реки или какие-то другие площади с отсутствующей жилой застройкой.

Год постройки

Распределение сосредоточено вокруг 2015 года, сильно скошено влево и имеет “толстый” хвост. По графику видно, что большинство домов, в которых сдаются квартиры, были построены в двухтысячных. Также в данных присутствует небольшая часть домов, построенных в период 1950 - 2000 годов. Такой вид распределения может быть объяснен “бумом” развития пригородов Санкт-Петербурга: строительством множества домов в так называемых “спальных окраинах”: Мурино, Девяткино, Кудрово и других.

Диаграммы рассеяния

Регион расположения сдаваемой квартиры

Как мы видим из ниже приведенных графиков, в среднем, цена в городе выше, чем цена в области. Это видно как из сравненя медиан, так и расположения основных 50% данных, располагающихся между 25-м и 75-м квантилями. При этом разброс данных больше в городе, как с большими, так и с меньшими значениями. Высокий разброс связан с тем, что в городе предлагается больше квартир в аренду. При этом, в городе больше значений, не входящих в статистически значимую часть выборки, так как в городе более высокий уровень жизни, из-за чего на рынке предлагается больше дорогих и больших квартир.

Район расположения сдаваемой квартиры

Относительно районов можно выделить следующие закономерности. Самыми дорогими районами являются Петроградский и Василеостровский из-за близости исторического центра и наличия многих жилых комплексов класса Комфорт и выше, Центральный и Адмиралтейский из-за близости исторического центра. Самыми дешевыми являются Ломоносовский и Петродворцовый за счет дальности от центра города. В остальных районах распределение цены за квадратный метр примерно одинаковое. При этом из графика по стоимости аренды видно, что распределение Курортного района выше обычного распределения, так как там много сдаваемых дачных участков и больших жилых комплексов для всей семьи для отдыха на природе, а Всеволожский и Колпинский имеют распределение ниже, так как это не самые процветающие районы, поэтому там находятся в основном маленькие квартиры, ибо другое малообеспеченное население позволить себе не может.

Ближайшая станция метро

Из анализа станций метро видно, что самые дорогие квартиры сдаются около Крестовского острова, Маяковской, Петроградской и Чкаловской, так как в этих округах находятся элитные жилые кварталы, которые дорого стоят. Из графика по цене за квадратный метр можно понять, в каких округах низкая цена жилья. Но часто меньшее распределение объясняется тем, что по данной станции метро слишком мало значений, как в случае с Бухарестской. Также можно выделить дорогие станции метро как площадь Александра Невского, Адмиралтейская, Выборгская, Горьковская и Черная речка (и др.), вокруг которых много жилых комплексов класса не меньше, чем “Бизнес”. Их медианы цен за квадратный метр, как и сами ящики, лежат выше, чем у других районов. При этом на графике от стоимости аренды их отрыв от остальных районов увеличивается за счет большего предложения больших квартир, которых в этих округах больше из-за более высокого уровня жизни.

Участие агента в сделке

Как мы видим из графика по цене за квадратный метр, участие агента увеличивает вероятность более высокой цены, на что указывает граница 75-го квантиля. Возможно, также, это объясняется тем, что агента могут позволить себе помимо прочих обеспеченные люди, которые продают изначально дорогие квартиры. Такие люди и могут поднимать границу 75-го квантиля. А в остальном распрделение цены за квадратный метр крайне похоже для обеих категорий. Если мы посмотрим на график стоимости аренды, то заметим, что нижняя граница усов меньше у сделок с агентом. Мое предположение, что это происходит из-за людей, которые сдают маленькие студии, которые сейчас в ходу, и хотят на этом заработать, поэтому для уменьшения рисков прибегают к помощи агентов. Маленькие студии суммарно стоят меньше, поэтому и сдвигают нижнюю границу усов.

Тип здания

Если посмотреть на график цены за квадратный метр, то можно заметить, что основное скопление значений для каждого типа лежит в одном и том же общем промежутке, что говорит о том, что данная переменная не представляет особого значения для цены. Даже значения, которые имеют длинные усы за счет большего количества и разброса наблюдений, имеют ящик, лежащий в том же промежутке, что и у менее популярных типов. Заметим, что более популярные типы являются самыми универсальными, как Кирпич или Монолит, вероятно, так как соответствие типа здания им легче определить. При этом, стоимость аренды так сильно разнится из-за неравенства распределения размера квартир по типам здания. У более популярных и универсальных типов больше расброс по размеру квартир, поэтому и стоимость у них часто будет больше, что показывает более высокое положение ящика с усами.

Наличие лифта

Удивительно, но распределения как и по стоимости аренды, так и по цене за квадратный метр попарно одинаковы для квартир с лифтов в доме, так и квартир без лифта в доме. Я не представляю, почему так происходит. Допустим, что лифт есть во многих многоэтажках, которые в основном строятся для среднего и низшего класса, а квартиры без лифта еть в основном маленьких домах для людей с высоким доходом. некие аналоги таунхауса. Тогда можно предположить, что из-за надбавки за лифт у квартир в многоэтажных домах распределение квартир с лифтом приближается к более дорогим квартирам без лифта в доме. Или же люди просто не обращают внимание на этот пункт при выборе квартиры.

Наличие мебели

Здесь мы наблюдаем ситуацию, аналогичную с предыдущей парой. Распределение не меняется от перехода к другому типу. Вероятно, это так же определяется тем, что арендующие мало внимания уделяют выбору мебели. Но заметим, что более продвинутые типы мебели как Сборная Современная или Сборная + Кухонный гарнитур имеют более высокое по значениям распределение, хотя отличается от других оно не намного. Поэтому можно предположить, что мебелированность очень слабо влияет на цену.

Тип ванной комнаты

По ванным комнатам ситуация так же похожа на ситуацию с мебелью, где распределение и расположение медиан и ящиков примерно одинаковое для каждого типа. Длина усов определяется только популярностью типа, которая определяется универсальностью типа. Арендодатели мало представляют, чем попереченая ванна отличается от продольной. Им понятнее категории Душ, Отдельная и Совмещенная, поэтому среди них больше наблюдений. Вероятно, такая же ситуация и у арендаторов, так как им важнее наличие ванной, чем её тип, в котором они не всегда разбираются. Исходя из схожести основных параметров выборочных распределений можно сказать, что наличие ванной так же не сильно влияет а цену.

Проведение ремонта в сдаваемой квартире

Из этих графиков мы видим, что в большинстве домов/квартир сделан ремонт и распределение цен и стоимости в домах с выполненным ремонтом выше, чем у домов/квартир с невыполненным ремонтом. Что интересно, у квартир с указанным фактом ремонтом распределение цены и стоимости выше, чем при указании, что ремонт не требуется. Вероятно, факт совершения ремонта говорит об улучшенных характеристиках квартиры и её большей современности, так как во время ремонта она обновилась с использованием современных средств и технологий.

Тип балкона

Замтеим, что распределение по цене одинаково у типов балкона, которые не включают дополнений и у типов балкона с дополнениями или большим количеством объектов типа балкона, при этом у вторых распределение выше. При этом, если мы посмотрим на график от стоимости, то заметим, что второй класс находится ещё выше. На наш взгляд, это происходит так из-за того, что такие продвинутые типы в основном встречаются в больших и дорогих элитных квартирах с изначально большей наценкой и площадью. И объяснение находится не в балконе, а в том, в каких квартирах он находится. Исходя из того, что внутри этих классов распределение примерно одинаковое, то для покупателя важен лишь факт наличия балкона скорее, чем его тип.Поэтому, нам кажется, что этот показатель, исходя из выше сказанного, мало влияет на стоимость квартиры.

Расстояние до метро

Из данных крайне похожих графиков можно заметить, что с уменьшением расстояния увеличивается плотность распределения наблюдений. То есть, предложение квартир обратно пропорционально расстоянию до метро. То есть, основное предложение сосредоточено вблизи метро, так как на него самый большой спрос. Возможно, люди специально покупают квартиры у метро, чтобы сдавать их в аренду и зарабатывать на этом. При этом, если мы отметим, что разброс цены, как и условное среднее увеличивается при уменьшении расстояния до метро, что означает, что более дорогие квартиры сосредотачиваются у метро (возможно, как раз из-за большого спроса), поэтому цена и стоимость зависят от расстояния до метро и стратегия осознанной сдачи в аренду ещё больше оправдана.

Общая площадь квартиры

Мы думаем, что тут много говорить не надо. Мы видим крайне логичную зависимость стоимости квартиры от общей площади, так как стоимость можно представить как цену за квадратный метр на метраж квартиры. А зависимость цены от общей площади практически отсутствует, так как цена за квадратный метр определяется качественными характеристиками квартиры нежели, чем метражом, например, благополучностью района. Площадь ничего не говорит о качестве квартиры. Поэтому не влияет на цену за квадратный метр.

Жилая площадь

У жилой площади почти такое же совместное распределение с ценой и зависимость, так как большая часть общей площади - это жилая площадь, поэтому для неё наблюдаются те же выводы, что и для общей площади.

Площадь кухни

У площади кухни уже намного слабее выражаются зависимости общей и жилой площадей. Для кухни больше похоже на то, что она не влияет на стоимость аренды, как минимум с какого-то порогового значения (например, 15 м2). Нам кажется, что кухня, во-первых, составляет малую часть от общей площади, поэтому слабо влияет на стоимость. Во-вторых, сейчас людям не сильно важен размер кухни, так как большую часть времени они проводят в других комнатах, а кухня нужна только для приготовления пищи. Даже для еды обычно сейчас используют и выделяют другие комнаты. Кроме того, по мере развития сервисов доставки еды надобность в самостоятельном приготовлении пищи отпадает и нужда в кухне уменьшается. Поэтому люди не меньше готовы доплачивать как за наличие кухни, так и за ее размер.

Минимальный срок аренды

Исходя из этих графиков заметны основные округленные сроки договора аренды - 1 месяц, полгода, год и почему-то 32 месяца. Заметим, что распределение для полугода незначительно, но выше, чем для месяца, так как месяц можно рассматривать как пробный период, на который делается дисконт. Также сдача на месяц возможно обоснована внезапной надобностью сдать квартиру, а не размеренным решением намеренно и долгосрочно сдавать квартиру. Поэтому чтобы решить текущую проблему со сдачей квартиры, арендодатель предлагает меньшую стоимость, чтобы её побыстрее арендовали. Далее с увеличением срока аренды цена и стоимость увеличиваются. Так как чем меньше срок, тем больше возможностей у арендодателя сменить арендующего и избавиться от предыдующего арендатора. И это льгота компенисируется меньшей ценой. С увеличением срока начинает действовать другой эффект, что арендатор не может легко отказаться от аренды и сменить квартиру, так как скован условиями договора. Поэтому с увеличением времени стоимость уменьшается, что и видно при переходе от года к 32 месяцам. Поэтому минимальный срок аренды влияет на цену.

Год постройки

Ну тут говорить нечего. С увеличением года постройки помимо увеличения предложения из-за постоянного роста рынка строительства. Также после 2000 года с увеличением года строительства начинается увеличиваться цена за квадратный метр, так как на рынок вошли новые продвинутые технологии, которые позволили строить более качественные дома и лучше оборудовать квартиры. Также более молодые дома более стойкие, прочные и несут меньше рисков нежели, чем более старые, как возможность протекания или ухудшения внутренней облицовки. Поэтому год строительства прямым образом должен влиять на цену.

Этаж расположения квартиры

Мы видим, что большинство наблюдений сконцентрировано на этажах меньше десятого. На этих этажах Так же более широкое распределение, его размах больше, чем на более высоких. Это, на наш взгляд, связано с тем, что в Петербурге была долгое время малоэатажная застройка, особенно в близких к метро и историческому центру районах, что влияет на цену и стоимость. Поэтому сам этаж расположения не влияет на цену.

Количество этажей в доме

Аналогичная ситуация и с количеством этажей в доме. График и совместное распределение крайне напоминают свои аналоги в номере этажа. Из-за ограниченности домодерновой малоэтажной постройки большинство квартир в городе сосредоточены на низких этажах, а причины, по которым на этих низких этажах более высокая стоимость мы пояснили выше. Поэтому само количество этажей не влияет на цену.

Количество комнат в квартире

Заметим, что с увеличением количества комнат увеличивается цена за метр, хоть и ненамного. Это связано с тем, что дополнительные комнаты дают новые возможности функционального и тематического заполнения пространства. Также, они дают личное пространство для дополнительных членов семьи, что и обеспечивает их надабвку. Цена за метр студии при этом выше, чем за однокомнатную и двукомнатную квартиру, так как сейчас студии пользуются повышенным спросом, а также они в меньшем пространстве совмещают все возможности, функции, технологии и удобства более многокомнатных квартир. Также различие в стоиомсти растет ещё сильнее, так как, помимо всего, с увеличением числа комнат обычно (в среднем) увеличивается площадь квартиры, которая прямым образом влияет на стоимость.

Корреляции признаков

Для рассмотрения корреляций я не брал адреса, так как там все значения почти уникальные и не несут особого смысла, а так же широту и долготу, так как эти величины эквивалентны адресу. А все перечисленные величины и так содержатся эксплицитно в Станции метро и Районе.

Во всех последующих таблицах зачеркнуты значения, чей уровень значимости больше 0.05. Они считаются несущественными.

Рассмотрим корреляционную матрицу Пирсона для числовых параметров.

Матрица нам лает результаты, которые мы уже упоминали. Цена и Стоимость сильно зависят от Общей и Жилой площадей. А площади сильно зависят друг от друга, что неудивительно, так как одна из величин включается в другую.

Ещё заметно, что сильно коррелируют друг с другом количество этажей, номер этажа и год постройки, что опять же связано с тем, какой был тип застройки в Петербурге.

У остальных пар корреляция слабая (меньше 0.25 по модулю), поэтому, на наш взгляд, она не заслуживает рассмотрения.

Рассмотрим корреляционную матрицу Спирмена для ординальных и числовых параметров

Да, относительно числовых параметров это делать не совсем уместно, хотя их тоже можно представить в виде ординальных величин. Тем не менее, корреляция Спирмена не изменяла порядок вещей в нашей матрице. Наиболее значительными связями все так же являются связь Цены, Стоимости и Площадей, а также Года постройки и Этажей. Остальные корреляции слишком малы по модулю, чтобы их рассматривать.

Стоит заметить, что стала отчетливо видна отрицательная зависимость Цены и Стоимости от Дистанции до метро, которую мы и предполагали.

Тем не менее, обратим на связь числовых параметров с Количеством комнат, нашим единственным ординальным параметром. Они плотно связаны с Площадьми дома, что мы уже объясняли в предыдущем разделе, а также с Ценой и Стоимостью аренды, что мы также объясняли в предыдущем разделе. Ну и банально, со Стоимостью Количество комнат связано через зависимость от Площадей, которые сильно влияют на Стоимость.

Рассмотрим корреляционную матрицу для номинальных параметров

Матрица основана на скорректированном коэффициенте сопряженности Пирсона.

Из этой интереснейшей матрицы мы видим, что почти все зависимости Цены от номинальных признаков малы и недостаточно значительны. Только с Метро есть положительная зависимость, которую мы и предполагали, и пытались объяснить. Возможно, это, как мы и упоминали, объясняется тем, что арендаторам не важен часто конкретный тип обустроенности квартиры, а просто наличие определенных параметров. Балкон и лифт, как мы и предполагали, слабо влияют на цену.

Но далее самое настоящее веселье. Почти все признаки коррелируют друг с другом. Заметим, что большинство признаков связано с обустройством дома. Поэтому их было бы логично рассматривать комплексно. Итак, с развитием технологий и прогрессом увеличивается качество домов, увеличивается их сложность. Чем позже построен дом, тем лучшего качества он будет, тем лучше он будет оборудован, тем больше шансов, что он будет с усложненными и насыщенными по фактуре квартирами. Поэтому это влияет положительно на Тип здания, наличие лифта, меблированность, тип ванной, состояние ремонта и балкон. Первопричиной предыдущих выводов может стать связь всех признаков с классом комплекса. Не составляет труда представить себе, что чем выше класс комплекса, тем лучше там будут проработаны все составляющие, поэтому они одновременно будут улучшаться по мере увеличения класса.

Метро положительно связано с другими параметрами, так как, как мы уже знаем, ближе к метро наиболее востребованные и дорогие квартиры, поэтому было бы логично, если бы рядом с метро строились самые разные, как и продвинутые жилые комплексы, которые хотели бы увеличить наценку на квартиры за счет расположения. Давайте не забывать, что у нас есть станции метро с условно дорогими ценами и условно не дорогими, как мы узнали в предыдущем разделе. Можно сказать, что есть элитные станции метро с жильем высокого класса вокруг и не самые элитные станции метро с невысоким классом жилья вокруг. А как мы знаем из предыдущего абзаца, более элитное жилье способствует более уютному и качественному обустройству дома.

Теперь давайте скажем про агентов. Как мы уже упоминали в предыдущем разделе, агентов скорее могут позволить себе обеспеченные люди, которые владеют уже крайне хорошими и благоустроенными квартирами, которые они и сдают. Также, мы говорили, что агентами могут пользоваться арендодатели востребованных студий, которые они обустраивают, чтобы выделяться на фоне конкурентов, предлагая лучшие условия и поднимая цену аренды. Это и объясняет положительную корреляцию.

Карта

Так как мы не разобрали адреса и географические координаты, то в качестве утешения мы предлагаем интерактивную карту расположения объявлений, которая прекрасно показывает расположение объявлений по городу и области.